GPT-4 テクニカルレポート
https://scrapbox.io/files/65aaf4fce99ca4002234f07a.png
論文情報
タイトル:GPT-4 Technical Report
発行日:2023年3月
著者:Josh Achiam et al
所属:OpenAI
論文を読んで感じたこと
GPT-4では日本語で指示して問題ない?英語の方が良い?というQ/Aに対し、以下の画像がよく参考に出される
https://scrapbox.io/files/65ac7702a35a040025614e21.png
MMLUという日本でいうセンター試験の専門版(法律、医学あり)に対し、英語で書かれた本文を、Azure Translateを使って、それぞれの言語に翻訳して解かせている つまり、Azure Translateの精度という変数の影響を受けるわけだが、以下の記事を読むとそこそこ精度が高そう
なので、完璧な日本語ではないにしても、ある程度の精度がある。しかし、低リソース言語であるラトビア語より精度が低い、かつSelf-Translateなども考慮すると、日本語 -> 英語に翻訳してプロンプトを投げる価値はあるかと思われる。 GPT-4でも、ハルシネーションの問題はあるが、GPT-3.5と比べて、ハルシネーションの起こりやすさは平均すると19%低くなった。
https://scrapbox.io/files/65ac7d5f6e95eb00244bcd50.png
事前学習後のモデルは精度高いが、トレーニング後に自信過剰になり、精度が下がるのは面白い
https://scrapbox.io/files/65ac7ff4fdff1d0024e214e6.png
概要
本報告では、画像とテキストの入力を受け付け、テキスト出力を生成する大規模なマルチモーダルモデルであるGPT-4の開発について報告します。多くの実世界のシナリオでは人間よりも能力が劣るものの、GPT-4は、模擬弁護士試験で上位10%のスコアを達成するなど、さまざまな専門職や学術的なベンチマークで人間レベルのパフォーマンスを示しています。GPT-4は、ドキュメント内の次のトークンを予測するために事前トレーニングされたTransformerベースのモデルです。トレーニング後の調整プロセスにより、事実性と望ましい行動への遵守の面でのパフォーマンスが向上しています。このプロジェクトの主要なコンポーネントの一つは、幅広いスケールで予測可能に振る舞うインフラストラクチャと最適化方法の開発でした。これにより、GPT-4の1/1,000の計算量でトレーニングされたモデルに基づいて、GPT-4のパフォーマンスの一部を正確に予測することが可能となりました。 1 紹介
本技術報告書では、画像とテキストの入力を処理し、テキスト出力を生成する大規模なマルチモーダルモデルであるGPT-4を紹介します。このようなモデルは、対話システム、テキスト要約、機械翻訳など、幅広いアプリケーションで使用される可能性があるため、重要な研究分野です。したがって、近年、これらのモデルに対する大きな関心と進歩が見られています。GPT-4の主な開発目標の一つは、より複雑で繊細なシナリオでの自然言語テキストの理解と生成能力を向上させることです。その能力を試すために、GPT-4は人間用に設計されたさまざまな試験で評価されました。これらの評価では、GPT-4はかなり優れた成績を収め、多くの場合、人間の試験受験者の大部分を上回ります。たとえば、模擬弁護士試験では、GPT-4は上位10%のスコアを達成しています。これは、下位10%のスコアを収めたGPT-3.5とは対照的です。従来のNLPベンチマークのスイートでは、GPT-4は以前の大規模言語モデルはもちろん、ベンチマーク固有のトレーニングや手作業によるエンジニアリングを行った最先端システムのほとんどを上回っています。57科目をカバーする英語の多肢選択式質問のスイートであるMMLUベンチマークでは、GPT-4は英語だけでなく他の言語においても既存モデルを大幅に上回るパフォーマンスを発揮しました。MMLUの翻訳バリアントでは、GPT-4は考慮された26言語中24言語で英語の最新技術を上回りました。これらのモデル能力の結果、およびモデルの安全性向上とその結果について、後のセクションでより詳細に議論します。 この報告書では、プロジェクトの主要な課題である、幅広いスケールで予測可能に振る舞う深層学習インフラストラクチャと最適化方法の開発についても議論します。これにより、GPT-4の予想されるパフォーマンス(類似の方法で訓練された小規模なランでテストされた)についての予測を行い、最終ランに対して我々の訓練への信頼を高めることができました。
しかし、その能力にもかかわらず、GPT-4は以前のGPTモデルと同様の制限を持っています:完全に信頼性があるわけではなく(例えば「幻覚」に苦しむことがある)、限定的なコンテキストウィンドウを持ち、経験から学ぶことができません。特に信頼性が重要なコンテキストでGPT-4の出力を使用する際には注意が必要です。 GPT-4の能力と制限は重要かつ新しい安全上の課題を生み出し、潜在的な社会的影響を考えると、これらの課題の慎重な研究が重要な研究分野であると私たちは信じています。この報告書には、バイアス、ディスインフォメーション、過度の依存、プライバシー、サイバーセキュリティ、普及など、我々が予測するいくつかのリスクについての詳細なシステムカード(付録後)が含まれています。また、GPT-4の展開から潜在的な害を軽減するための介入、専門家との敵対的テスト、モデル支援の安全パイプラインについても説明しています。
2 この技術報告書の範囲と限界
この報告書は、GPT-4の能力、制限、および安全性に焦点を当てています。GPT-4は、Transformerスタイルのモデルで、公開されているデータ(インターネットデータなど)および第三者プロバイダーからライセンスされたデータを使用して、文書中の次のトークンを予測するために事前訓練されています。その後、Human Feedbackからの強化学習(RLHF)を使用して微調整されました。GPT-4のような大規模モデルの競争環境と安全性の意味合いを考えると、この報告書には、アーキテクチャ(モデルサイズを含む)、ハードウェア、訓練コンピュート、データセット構築、訓練方法、または同様の詳細についてはこれ以上の情報は含まれていません。 我々は、技術の独立した監査にコミットしており、このリリースに伴うシステムカードでいくつかの初期のステップとアイデアを共有しました。さらに技術的な詳細を追加の第三者に公開し、上記の競争と安全上の考慮事項をさらなる透明性の科学的価値とどのようにバランスさせるかについて助言を求める予定です。
3 予測可能なスケーリング
GPT-4プロジェクトの大きな焦点は、予測可能にスケールする深層学習スタックを構築することでした。主な理由は、GPT-4のような非常に大きな訓練ランでは、広範なモデル固有のチューニングを行うことが現実的ではないためです。これに対処するために、我々は複数のスケールで非常に予測可能な振る舞いを持つインフラストラクチャと最適化方法を開発しました。これらの改善により、1,000倍から10,000倍の計算量が少ない小規模モデルを使用して訓練されたものからGPT-4のパフォーマンスのいくつかの側面を確実に予測することができました。
3.1 損失予測
適切に訓練された大規模言語モデルの最終損失は、モデルの訓練に使用された計算量に関するべき乗則でよく近似されると考えられています。
我々は、最適化インフラストラクチャのスケーラビリティを検証するために、GPT-4の最終損失を、訓練セットの一部ではない内部コードベースで予測しました。これは、Henighanらのように、不変の損失項を持つスケーリング則 L(C) = aCb + c を適用し、GPT-4の最大10,000倍少ない計算で訓練されたモデルを用いて行いました。この予測は、ランが開始された直後に行われ、いかなる部分結果も使用しませんでした。適用されたスケーリング法則は、高い精度でGPT-4の最終損失を予測しました(Figure 1) https://scrapbox.io/files/65ac71cad2b2890024d0c470.png
3.2 HumanEvalにおける能力のスケーリング
訓練前にモデルの能力を把握することは、アライメント、安全性、および展開に関する決定を改善することができます。最終損失を予測することに加えて、我々はより解釈可能な能力指標を予測する方法論を開発しました。そのような指標の一つが、HumanEvalデータセットにおける合格率で、これは様々な複雑さのPython関数を合成する能力を測定します。我々は、最大1,000倍少ない計算で訓練されたモデルから外挿することにより、HumanEvalデータセットのサブセットで合格率を正確に予測しました(Figure 2) https://scrapbox.io/files/65ac721f9261e8002341ff19.png
HumanEvalの個々の問題では、パフォーマンスは時折スケールによって悪化することがあります。これらの課題にもかかわらず、我々はべき乗則の関係 −EP 【log(pass_rate(C))】 = α∗C^−k を見出しました。ここでkとαは正の定数で、Pはデータセット内の問題のサブセットです。我々は、この関係がこのデータセット内の全ての問題に適用されると仮定しています。実際には、非常に低い合格率を推定することは困難または不可能なので、問題PとモデルMについて、大きなサンプル予算が与えられた場合、すべての問題がすべてのモデルによって少なくとも一度は解決されるように制限しました。
我々は、訓練が完了する前に、訓練前に利用可能な情報のみを使用して、GPT-4のHumanEvalにおけるパフォーマンスについての予測を登録しました。HumanEvalの最も難しい15問を除くすべての問題は、小規模モデルのパフォーマンスに基づいて6つの難易度バケットに分割されました。3番目に簡単なバケットの結果はFigure 2に示されており、このHumanEval問題のサブセットに対する予測が非常に正確であることが示されています。他の5つのバケットについての予測もほぼ同様に良好でしたが、主な例外は、GPT-4が最も簡単なバケットにおいて予測を下回ったことです。
特定の能力は予測が難しいままです。例えば、Inverse Scaling Prizeは、モデルのパフォーマンスがスケールの関数として減少するいくつかのタスクを提案しました。Weiらの最近の結果と同様に、我々はGPT-4がこの傾向を逆転させることを発見しました。これは、Hindsight Neglectと呼ばれるタスクの1つでFigure 3に示されています。
https://scrapbox.io/files/65ac72965edebe0024de8536.png
4 能力
我々は、元々人間向けに設計された試験をシミュレートするなど、様々なベンチマークでGPT-4をテストしました。これらの試験に対する特定の訓練は行っていません。試験の問題の一部は、訓練中にモデルによって見られましたが、各試験について、これらの質問を除外したバリアントを実行し、2つのうち低いスコアを報告します。我々はこれらの結果が代表的であると考えています。汚染(方法論および試験ごとの統計)に関する詳細については、付録Cを参照してください。
試験は、一般に公開されている資料から調達されました。試験問題には、選択問題と自由回答問題の両方が含まれており、各形式に対して別々のプロンプトを設計しました。また、必要な場合には質問に画像が含まれていました。評価セットアップは、検証セットの試験でのパフォーマンスに基づいて設計され、保留されたテスト試験で最終結果を報告します。全体的なスコアは、各試験の公開されている方法論を使用して、選択問題と自由回答問題のスコアを組み合わせることによって決定されました。我々は、各全体的なスコアが対応するパーセンタイルを推定し報告します。試験評価方法論の詳細については、付録Aを参照してください。
GPT-4は、これらの専門的および学術的な試験の大部分で人間レベルのパフォーマンスを示しています。特に、米国統一司法試験のシミュレートバージョンにおいて、受験者の上位10%に入るスコアを獲得しました(表1、Figure 4)
https://scrapbox.io/files/65ac73c98091370022d83557.png
https://scrapbox.io/files/65ac747ffdff1d0024e1c303.png
試験におけるモデルの能力は、主に事前学習プロセスから生じており、RLHFによる影響はそれほど大きくありません。選択式の質問において、基本的なGPT-4モデルとRLHFモデルは、我々がテストした試験の平均で同等に良好に機能しています(付録Bを参照)。 また、我々は伝統的なベンチマークで言語モデルを評価するために、事前学習された基本的なGPT-4モデルを評価しました。各ベンチマークについて、我々は訓練セットにテストデータが現れる汚染チェックを実施しました(ベンチマークごとの完全な汚染に関する詳細は付録Dを参照)。我々は、GPT-4を評価する際、すべてのベンチマークでFew-Shotのプロンプティングを使用しました。 GPT-4は、既存の言語モデルや、ベンチマーク固有のクラフティングや追加のトレーニングプロトコルを持つ以前の最先端(SOTA)システムを大幅に上回ります(表2)。 https://scrapbox.io/files/65ac74f90b8ca7002557dae1.png
多くの既存のMLベンチマークは英語で書かれています。GPT-4の他言語における能力を初期的に理解するために、我々はMMLUベンチマーク(57科目にまたがる多項選択問題のスイート)をAzure Translateを使用して様々な言語に翻訳しました(例訳とプロンプトについては付録Fを参照)。我々は、GPT-4が、ラトビア語、ウェールズ語、スワヒリ語などの低リソース言語を含む、テストしたほとんどの言語で、GPT 3.5および既存の言語モデル(Chinchilla、PaLM)の英語パフォーマンスを上回ることを発見しました(Figure 5)。 https://scrapbox.io/files/65ac7702a35a040025614e21.png
GPT-4は、ユーザーの意図に従う能力において、前のモデルを大幅に改善しています。ChatGPTおよびOpenAI APIに提出された5,214のプロンプトのデータセットでは、GPT-4によって生成された応答が、GPT-3.5によって生成された応答よりも70.2%のプロンプトで好まれました。
我々は、GPT-4のようなモデルを評価するためのベンチマークを作成し実行するフレームワークであるOpenAI Evalsをオープンソース化しています。Evalsは既存のベンチマークと互換性があり、デプロイメント中のモデルのパフォーマンスを追跡するために使用できます。我々は、これらのベンチマークの多様性を増やし、より広範な失敗モードとより困難なタスクセットを表現する予定です。
4.1 視覚入力
GPT-4は画像とテキストの両方で構成されるプロンプトを受け入れ、これにより、ユーザーは任意の視覚または言語タスクを指定できます。具体的には、モデルはテキストと画像が任意に交互に配置された入力からテキスト出力を生成します。文書にテキストや写真、図、スクリーンショットなど、さまざまなドメインにわたって、GPT-4はテキストのみの入力に対して示すのと同様の能力を示しています。GPT-4の視覚入力の例は表3で見ることができます。言語モデル用に開発された標準的なテスト時技術(例:少数ショットのプロンプティング、思考の連鎖など)は、画像とテキストの両方を使用する場合に同様に効果的です(例については付録Gを参照)。
https://scrapbox.io/files/65ac794c2c35da002359212a.png
学術的な視覚ベンチマークの狭いセットに関する予備的な結果は、GPT-4のブログ投稿で見ることができます。我々は、GPT-4の視覚能力に関する詳細を、フォローアップの作業で公開する予定です。
5 制限
その能力にもかかわらず、GPT-4は以前のGPTモデルと同様の制限を持っています。最も重要なことは、依然として完全に信頼できるわけではないことです(事実を「幻覚」したり、推論エラーを起こすことがあります)。特に高リスクのコンテキストでは、言語モデルの出力を使用する際には非常に注意が必要です。具体的なプロトコル(人間によるレビュー、追加のコンテキストでの基盤付け、または高リスクの使用を完全に避けるなど)は、特定のアプリケーションのニーズに応じて異なります。詳細については、私たちのシステムカードを参照してください。
GPT-4は、以前のGPT-3.5モデルに比べて幻覚を大幅に減少させています(GPT-3.5自体も継続的な反復により改善しています)。GPT-4は、敵対的に設計された私たちの内部の事実性評価(AIが誤った情報を提供する可能性が高い、またはその能力を誤認識させるような状況や質問を意図的に作り出す評価)で、最新のGPT-3.5よりも19パーセンテージポイント高いスコアを記録しています(Figure 6)。
https://scrapbox.io/files/65ac7d5f6e95eb00244bcd50.png
GPT-4は、TruthfulQAのような公開ベンチマークで進歩を遂げており、これは、敵対的に選択された誤った声明のセットから事実を分離するモデルの能力をテストします(Figure 7) https://scrapbox.io/files/65ac7de5c8311b0024c3e97a.png
これらの質問は、統計的に魅力的な事実上誤った回答とペアになっています。GPT-4の基本モデルはこのタスクでGPT-3.5よりわずかに優れていますが、RLHFの後にはGPT-3.5を大幅に上回る改善が見られます。表4には、正しい回答と誤った回答の両方が示されています。GPT-4は一般的なことわざ(古い犬に新しい芸を教えることはできない)を選択することに抵抗していますが、それでも細かい詳細を見逃すことがあります(エルビス・プレスリーは俳優の息子ではなかったため、正解はパーキンスです)。
https://scrapbox.io/files/65ac7e23f6c6400025d0ce5c.png
GPT-4は、事前学習データの大部分が2011年9月に終了した後に発生した出来事に関する知識が一般的に欠けており、経験から学ぶことはありません。時には、多くのドメインでの能力に似合わず単純な推論エラーを犯すことがあり、また、ユーザーから明らかに誤った声明を受け入れることがあります。難しい問題に対して、人間と同様の方法で失敗することもあります。例えば、生成したコードにセキュリティ脆弱性を導入するなどです。
GPT-4は予測で自信過剰になることもあり、間違いを犯す可能性が高い場合に作業をダブルチェックすることを怠ります。興味深いことに、事前学習されたモデルは高い校正性を持っています(回答に対する予測された確信度が正しい可能性と一般的に一致します)。しかし、トレーニング後のプロセスの後、校正性は低下します(Figure 8)。
https://scrapbox.io/files/65ac7ff4fdff1d0024e214e6.png
GPT-4は、出力にさまざまなバイアスを持っており、私たちはこれを修正する努力をしていますが、完全に特徴付けて管理するには時間がかかります。私たちは、GPT-4や他のシステムを、幅広いユーザーの価値観を反映した合理的なデフォルトの振る舞いを持たせ、それらのシステムを幅広い範囲内でカスタマイズできるようにし、その範囲についての公的な入力を得ることを目指しています。詳細については、OpenAIを参照してください。
6 リスクと軽減策
私たちは、GPT-4の安全性とアライメントを改善するために大きな努力を投じてきました。ここでは、敵対的テストとレッドチーミングのためのドメイン専門家の使用、および私たちのモデル支援安全パイプラインと以前のモデルに対する安全指標の改善について強調します。
ドメイン専門家による敵対的テスト
GPT-4は、有害なアドバイス、バグのあるコード、または不正確な情報を生成するなど、より小さな言語モデルと同様のリスクをもたらします。しかし、GPT-4の追加機能により、新しいリスクの面が生まれます。これらのリスクの範囲を理解するために、長期的なAIアライメントリスク、サイバーセキュリティ、バイオリスク、国際セキュリティなどの分野の50人以上の専門家を動員して、モデルを敵対的にテストしました。彼らの調査結果により、ニッチな専門知識を必要とする高リスク分野でのモデルの振る舞いをテストすること、および非常に高度なAIに関連するリスクを評価することができました。たとえば、危険な化学物質の合成方法に関する要求を拒否するGPT-4の能力を改善するために、追加のデータを収集しました(表5)。
https://scrapbox.io/files/65ac8130685757002444f9a6.png
モデル支援安全パイプライン
以前のGPTモデルと同様に、ユーザーの意図とより一致した応答を生成するために、人間のフィードバックを用いた強化学習(RLHF)を使用してモデルの振る舞いを微調整します。しかし、RLHFの後、私たちのモデルは安全でない入力に対して脆弱であり、安全および安全でない入力の両方で望ましくない振る舞いを示すことがあります。これらの望ましくない振る舞いは、RLHFパイプラインの報酬モデルデータ収集部分でラベラーへの指示が不十分であった場合に発生することがあります。安全でない入力が与えられた場合、モデルは犯罪の方法についてアドバイスするなどの望ましくないコンテンツを生成することがあります。さらに、モデルは安全な入力に対しても過度に慎重になることがあり、無害な要求を拒否したり、過度に慎重な回答をすることがあります。モデルをより細かなレベルで適切な行動に導くために、私たちは自身のモデルを重要なツールとして大きく依存しています。 安全性へのアプローチには、安全に関連するRLHFトレーニングのプロンプトの追加セットと、ルールベースの報酬モデル(RBRM)の2つの主要なコンポーネントがあります。私たちのRBRMは、ゼロショットのGPT-4分類器のセットです。これらの分類器は、RLHFの微調整中に、有害なコンテンツを生成しないように拒否する、または無害な要求を拒否しないなど、適切な行動を対象としたGPT-4ポリシーモデルに追加の報酬信号を提供します。
RBRMは3つの入力を取ります:プロンプト(オプション)、ポリシーモデルからの出力、そしてこの出力を評価する方法についての人間によって書かれたルーブリック(例:複数選択スタイルの一連のルール)。その後、RBRMはルーブリックに基づいて出力を分類します。たとえば、モデルに対して次のような分類を指示するルーブリックを提供することができます:(a) 望ましいスタイルでの拒否、(b) 望ましくないスタイルでの拒否(例:回避的または長々とした)、(c) 許可されていないコンテンツを含む、または (d) 安全な非拒否の回答。その後、有害なコンテンツ(例:不法なアドバイス)を要求する安全関連のトレーニングプロンプトのセットにおいて、これらの要求を拒否するためにGPT-4に報酬を与えることができます。逆に、安全で回答可能であることが保証されたプロンプトのサブセットでの要求を拒否しないためにGPT-4に報酬を与えることができます。この技術は、Glaese et al.やPerez et al. の研究に関連しています。これにより、最適なRBRMの重みを計算し、改善したい領域をターゲットとする追加のSFTデータを提供するなどの他の改善と組み合わせることで、モデルを望ましい行動に近づけることができました。
安全性指標の改善
私たちの軽減策により、GPT-4の多くの安全性特性が大幅に改善されました。許可されていないコンテンツへの対応の傾向をGPT-3.5と比較して82%減少させ(表6)
https://scrapbox.io/files/65ac8209650ea3002483756e.png
GPT-4は私たちの方針に従って医療アドバイスや自傷行為などの敏感なリクエストに29%頻繁に対応しています(Figure 9)。
https://scrapbox.io/files/65ac81f6a89daf0023106e48.png
RealToxicityPromptsデータセットでは、GPT-4は0.73%の時間だけ有害な生成物を生み出し、GPT-3.5は6.48%の時間で有害なコンテンツを生成します。
全体的に、私たちのモデルレベルの介入は、悪い行動を引き出す難しさを高めますが、それでも可能です。たとえば、「ジェイルブレイク」のようなものがまだ存在し、私たちの使用ガイドラインに反するコンテンツを生成することができます。これらの制限が存在する限り、悪用の監視や迅速な反復的なモデル改善のためのパイプラインなど、展開時の安全技術と補完することが重要です。 GPT-4および後継モデルは、有益な方法と有害な方法の両方で社会に大きな影響を与える可能性があります。私たちは、潜在的な影響を理解し評価する方法を改善するために、外部の研究者と協力しており、将来のシステムで出現する可能性のある危険な能力のための評価を構築しています。私たちは、AIの影響に備えるために社会が講じるべきステップと、AIの可能な経済的影響を予測するための初期的なアイデアについての推奨事項をまもなく公表します。
7 結論
私たちは、特定の難しい専門的および学術的ベンチマークで人間レベルのパフォーマンスを持つ大規模なマルチモーダルモデルであるGPT-4を特徴付けます。GPT-4は、NLPタスクのコレクションで既存の大規模言語モデルを上回り、多くの報告された最先端のシステム(しばしばタスク固有の微調整を含む)を上回っています。改善された能力は通常英語で測定されますが、多くの異なる言語で示すことができます。我々は、予測可能なスケーリングがGPT-4の損失と能力に関する正確な予測を可能にした方法を強調しました。
GPT-4は、能力の向上により新たなリスクを提示し、その安全性とアライメントを理解し改善するために取られた方法と結果について議論します。やるべきことはまだたくさんあるが、GPT-4は広く有用で安全に配備されたAIシステムに向けた重要な一歩です。